자연어 처리(NLP)의 발전은 언어를 독립적인 단일 기호로 보는 방식에서 연속적이고 다차원 벡터 공간으로 표현하는 방식으로의 근본적인 전환을 의미합니다. 우리는 단순한 특징 기반 표현 에서 심층적인 의미 지도로 나아갔습니다.
표현 방식의 전환
- 통계 시대 (희소): 초기 자연어 처리는 TF-IDF 알고리즘에 의존했습니다. 검색에는 효과적이지만 '희소성의 저주'라는 문제를 겪습니다. TF-IDF 시스템에서는 '의사'와 '의사'가 직교 벡터이며, 수학적으로는 전혀 관련이 없습니다.
- 분산 혁명 (신경망 언어 모델 및 Word2Vec): 신경망 언어 모델은 밀집 벡터를 도입했습니다. Word2Vec(Skip-gram/CBOW)는 유사한 맥락에 나타나는 단어들은 공간적으로 이웃해야 한다고 학습합니다.
- 글로벌 통계 (GloVe): 글로벌 벡터는 전체 코퍼스를 통해 전역 공출현을 분석함으로써 간극을 메우며, 거리가 수학적 의미적 유사성을 반영하도록 보장합니다.
깊은 통찰
발생 횟수 세기에서 맥락 예측으로의 전환은 모델이 미묘한 차이를 포착할 수 있게 합니다. 이 '분산 표현'은 한 단어의 의미가 수백 개의 벡터 차원에 걸쳐 분포되어 있음을 의미하며, 각 차원은 성별, 왕권, 또는 의료 맥락과 같은 잠재적 의미 특성을 나타낼 수 있습니다.